音声情報処理 09
分析
合成⽅式を利⽤した分析
合成
波形あるいはスペクトルで楽⾳を表現すること
コンピュータ⾳楽制作
1. 加算合成,波形テーブル合成
2. 変調⽅式(FM合成⽅式
3. 物理モデル
4種類の楽⾳の機能:⾳楽的な意図・役割
A) 既存楽⾳の表現
対象⾳そのものを合成
B) 楽⾳の基本的加⼯
対象楽⾳をもとに加⼯ • ピッチ,⾳⾊,テンポなどのどれかを独⽴に制御
C) 楽⾳の応⽤的加⼯
対象楽⾳をもとに加⼯
D) 創造的合成
楽器⾳を作る
波形テーブル参照型
a. 波形テーブル合成
正弦波などの関数発⽣波を合成
演算コストが低い
b. サンプリング合成
実際の楽⾳の収録⾳を基に合成
任意⻑の発⾳を得るため,持続区間を繰り返すルーピング技術が必要
c. ⼆連⾳素合成
⼆連⾳素を単位として素⽚を接続
補完可能部分と⾮補完部分:補完可能部分を伸縮
例
d. Karplus Strong⽅式
p個の波形テーブルを⽤意して,p+1つめの波形は,s個⽬とs+1個⽬の波形値の平均として順次定義:s=p個のテーブルの1つ⽬の波形
撥弦,打楽器の⾳を合成:⾮常に⾃然な⾳質
ユニットジェネレータ
a. 加算合成
60年前
それまでは、アナログな音の録音だった
周波数と振幅が異なる複数の正弦波を重ね合わせる
b. 減算合成
雑⾳,のこぎり波,矩形波などの倍⾳が豊富な⾳をユニット
様々なフィルタを書けて周波数情報を削ぎ落として合成
⾮線形処理⽅式
a. 変調合成
リング変調,振幅変調,周波数変調
基本信号に対して変調を実施する
通信技術では,基本信号:⾼域の周波数,変調波:⾳声など
基本信号
運搬する放送周波数
変調
会話とか
⾳楽応⽤では,どちらも任意の信号を⽤いる
効果⾳エフェクト
楽⾳のシミュレーション
b. ウェーブシェーピング
⼊⼒信号に⾮線形歪みを加えて,⾼次倍⾳を豊かに付与する
物理モデル
撥弦の振動は2階の線形微分⽅程式で表現可能
前進波と後進波の和として表される
遅延の物理現象の反映
ウェーブガイド⽅式
現在,最も⽤いられている⽅法
波形テーブルと遅延を加えた加算で実時間合成
実際の発⾳のモデルを反映させて,後進波(遅延)を追加
分析/合成⽅式
モデル化されたパラメータを原⾳から推定する⽅式が存在するもの
任意の⾳源に対して,モデル表現ができる
楽⾳分析における分析/合成⽅式
対象⾳を分析するためのツール
様々な加⼯を施す
例えば,ボコーダや正弦波モデルなど
ボコーダとLPC,正弦波モデル
⾳声を⾳源と声道フィルタに分解して表現
⾳源を別の信号に置き換える
原⾳の位相を保持しない:フェーズボコーダは位相を保持
楽⾳を正弦波の波の重ね合わせで表現
調波表現には適しているが,雑⾳部には適さない
楽⾳分析
周波数領域で⾦管楽器の調波ごとの時間ー振幅特性を調べて調波ごとに直線近似
加算合成のパラメータとして近似した値を⽤いて原⾳に近い⾳⾊を作成
1970以降は,ディジタル周波数分析を⽤いて,フレームワイズな精密な分析
楽⾳の⽣成は⾳声の⽣成とは必ずしも⼀致しない
⾳源とフィルタへの分離はされてこなかった
個別楽器構造に対応するかたちで物理モデルが発展
要求される仕様の違い
⾳声は⾳韻性が第⼀義
韻律や感情は優先度が低め
聞き取れればok
⾳楽は⾳韻性はない
⾼⾳質への要求が厳しい.対象となる周波数帯域も20kHz前後と⾳声よりも⾼い.
着眼点の違い
⾳声では,位相よりも振幅特性に着⽬
楽⾳では,周波数に分解しながら正確な波形表現を⽬指す
⾳源分離などして多重⾳から抽出
セントロイド,MFCC,ピッチなど
⾳楽的な特徴量の抽出
ハーモニー,リズム,テンポの抽出
⼼理学分野でも
過去の参照?
聞き方によっても違う
リアルの会話では必要な余白
動画だと鬱陶しく感じる
実際の演奏では,⾳⾊や⾳量,テンポ,リズムが揺らぐ 以下の2種類の異なる時系列を対応付け
⾳響特徴量から⾳響的特徴の時間変化を特徴量とした時系列 楽譜から⾳響特徴量に対応づく拍やピッチの時系列
楽譜から⾳響を⽣成して,その⾳響と観測⾳響を⽐較
楽譜から⽣成したものはどこがどこに対応するか分かる
⾳響信号から抽出する特徴量
発⾳時刻の検出
急激な⾳量変化のピークを抽出
テンポの推定
発⾳時刻の検出結果に対して⾃⼰相関を算出
⾳量変化の時間差がビートの間隔
ビートの追跡と拍構造
⼩節とその中の拍の位置を検出